「Amazon Athena for Apache Sparkを使ってデータ分析をしよう!」というタイトルで DevelopersIO 2023 に登壇しました! #devio2023
データアナリティクス事業本部 機械学習チームの鈴木です。
DevelopersIO 2023 大阪にて「Amazon Athena for Apache Sparkを使ってデータ分析をしよう!」というタイトルで登壇しましたので資料をご共有します。
資料
ポイント
セッションで話した内容
Amazon Athena for Apache Sparkは、データレイクのデータに対して高いアジリティで分析を進められるインタラクティブな分析インターフェースだとして紹介しました。
特にデータ分析基盤自体に改修をしなくても、エンドユーザーでも簡単に大規模な生データやデータマートに対して分析を行うことができる点をポイントと考えています。これにより、データ分析基盤の設計にも幅が出るように思います。
課題に対する活用イメージ
レコメンデーションシステム※を開発・運用する際に、レコメンデーションエンジンであるAmazon Personalizeは直接生データを取り込めないので、ETL処理の開発と運用が必要になることをお話ししました。
※ 『レコメンドシステムプラン | 機械学習システム導入支援』でご提供しているようなイメージ
特にハブアンドスポークアーキテクチャのデータ分析基盤においては、ETL処理の開発はデータ分析基盤側のデータエンジニアが行うため、要求に対してどうしてもボトルネックになりやすいです。
そのため、マネージドでサーバレスなAmazon Athena for Apache Sparkを使い、一般的に広く使われているノートブックのUIとPythonを使うことで、 かなり気軽にETL処理とは別の大規模データ向けの口を用意することができるようになりました。
Amazon Athena for Apache Sparkについて
Amazon Athena for Apache Sparkのすごいポイントです。特にインタラクティブな処理実行に最適化されたApache Sparkで、非常にスムーズにアドホックな分析ができるよう気を配られている点が素晴らしいと思いました。
必要となるリソースの全体イメージもまとめてご紹介しました。
ほかのサービスとの比較
ほかのノートブックのインターフェースがあるAWSサービスとの比較をまとめたものになります。
Amazon Athena for Apache Sparkは明らかに大規模データのインタラクティブ分析に最適化されており、サーバレスでマネージドなサービスになります。スケールも、ノートブックに設定したパラメータにしたがって自動で行われます。インタラクティブ性向上のための明示的なホットスタンバイも不要です。
Athena SQLとの比較もまとめました。この観点に関しては、『『インタラクティブな分析アプリケーションを構築しよう』セッションに考える、データレイクへのインタラクティブな分析インターフェースの活用』でまとめた内容を反映しています。
想定するユースケース例
アドホックなデータ分析用途の例を2つ紹介しました。いずれもレイク層の生データを分析する例です。個人的にはインタラクティブな分析に使い、バッチ処理化したい場合は、AWS GlueのジョブやAthena SQLにするのが良いと思っています。
補足
料金面は、発表時点ではほかのサービスと比較して差があるため、リージョンやユースケースを考慮して選択されるとよいと思います。
最後に
DevelopersIO 2023 大阪にて「Amazon Athena for Apache Sparkを使ってデータ分析をしよう!」というタイトルで登壇しました。
re:Invent2022で発表されたAmazon Athena for Apache Sparkがデータ分析基盤でどのような役割を果たすかみつつ、データ分析基盤構築やそのユースケースによってどのように幅が広がったかを確認しました。
参考になりましたら幸いです。